点云压缩(PCC)是各种3-D应用程序的关键推动器,这是由于点云格式的通用性。理想情况下,3D点云努力描绘了连续的对象/场景表面。实际上,作为一组离散样本,点云是局部断开连接并稀疏分布的。这种稀疏的性质阻碍了在压缩点之间发现局部相关性的发现。通过分形维度的分析,我们提出了一种异质方法,并深入学习有损耗的点云几何压缩。在压缩输入的粗表示的基础层的顶部上,增强层的设计旨在应对具有挑战性的几何残差/详细信息。具体而言,应用基于点的网络将不稳定的本地详细信息转换为位于粗点云上的潜在特征。然后启动了在粗点云上运行的稀疏卷积神经网络。它利用粗糙几何形状的连续性/平滑度来压缩潜在特征,作为增强的位流,极大地使重建质量受益。当此位流不可用时,例如,由于数据包丢失,我们支持具有相同体系结构的跳过模式,该模式直接从粗点云中生成几何细节。对密度和稀疏点云的实验证明了我们的提案实现的最新压缩性能。我们的代码可在https://github.com/interdigitalinc/grasp-net上找到。
translated by 谷歌翻译
机器学习(ML)模型,例如SVM,用于分类和序列的聚类等任务,需要定义序列对之间的距离/相似性。已经提出了几种方法来计算序列之间的相似性,例如确切的方法计算$ k $ -s-mers(长度$ k $的子序列)之间的匹配数和估计成对相似性得分的近似方法。尽管精确的方法产生了更好的分类性能,但它们的计算成本很高,将其适用性限制在少量序列中。事实证明,近似算法更可扩展,并具有相当的性能(有时更好)确切方法 - 它们以“一般”方式设计用于处理不同类型的序列(例如音乐,蛋白质等)。尽管一般适用性是算法的所需属性,但在所有情况下都不是这种情况。例如,在当前的Covid-19(冠状病毒)大流行中,需要一种可以专门处理冠状病毒的方法。为此,我们提出了一系列方法来提高近似内核的性能(使用最小化和信息增益),以增强其预测性能PM冠状病毒序列。更具体地说,我们使用域知识(使用信息增益计算)和有效的预处理(使用最小值计算)来提高近似内核的质量,以对与不同变体相对应的冠状病毒峰值蛋白序列进行分类(例如,Alpha,Beta,Beta,Gamma)。我们使用不同的分类和聚类算法报告结果,并使用多个评估指标评估其性能。使用两个数据集,我们表明我们提出的方法有助于与医疗保健领域的基线和最先进的方法相比,有助于提高内核的性能。
translated by 谷歌翻译
前庭造型瘤(VS)通常从内耳生长到大脑。它可以分为两个区域,分别对应于内耳管内或外部。外部区域的生长是决定疾病管理的关键因素,其次是临床医生。在这项工作中,提出了将细分分为内部/优质零件的VS分割方法。我们注释了一个由227个T2 MRI实例组成的数据集,对137名患者进行了纵向获得,不包括术后实例。我们提出了一种分阶段的方法,第一阶段进行整个肿瘤分割,第二阶段使用T2 MRI以及从第一阶段获得的掩码进行了术中/极度分割。为了提高预测的肉类边界的准确性,我们引入了特定于任务的损失,我们称之为边界距离损失。与直接仪内分割任务性能(即基线)相比,评估了该性能。我们所提出的方法采用两阶段方法和边界距离损失,分别达到0.8279+-0.2050和0.7744+-0.1352,分别为室外和室内室内区域,显着提高了基线,这给出了0.7939+的骰子得分-0.2325和0.7475+-0.1346分别用于室外和室内区域。
translated by 谷歌翻译
交通拥堵的预测在做出未来的决策中起着至关重要的作用。尽管已经进行了许多有关拥塞的研究,但其中大多数不能涵盖所有重要因素(例如天气条件)。我们提出了一个交通拥堵的预测模型,该模型可以根据日,时间和几个天气数据(例如温度,湿度)预测拥堵。为了评估我们的模型,已针对新德里的流量数据进行了测试。通过这种模型,可以预测一周的道路拥堵,平均RMSE为1.12。因此,该模型可用于事先采取预防措施。
translated by 谷歌翻译
缺陷预测是最受欢迎的研究主题之一,因为它有可能最大程度地减少软件质量保证工作。现有方法已经从复杂性和开发者指标等各个角度检查了缺陷预测。但是,这些都没有考虑用于缺陷预测的编程样式。本文旨在分析风格指标对项目内部和交叉对象缺陷预测的影响。为了预测,使用了4种广泛使用的机器学习算法,即幼稚的贝叶斯,支持向量机,决策树和逻辑回归。该实验是在5个流行的开源项目的14个版本上进行的。检查F1,精度和召回以评估结果。结果表明,风格指标是缺陷的良好预测指标。
translated by 谷歌翻译
在CT图像中与Covid-19相关联的肺病变的自动分割需要大量的注释体积。注释授权专家知识,并通过全部手动分割方法获得时间密集。另外,肺病变具有大的患者间变异,具有与健康肺组织相似的视觉外观的病理学。当应用数据标签时,在应用现有的半自动交互式分段技术时,这会带来挑战。为了解决这些挑战,我们提出了一个有效的卷积神经网络(CNNS),可以在注释者提供基于杂交的交互时在线学习。为了从仅通过用户交互标记的样本加速学习,基于补丁的方法用于训练网络。此外,我们使用加权交叉熵丢失来解决可能由用户交互导致的类别不平衡。在线推理期间,使用完全卷积的方法将学习网络应用于整个输入卷。我们将建议的方法与最先进的方法进行比较,并表明它优于与Covid-19相关联的肺病变的任务表现出现有的方法,在减少3美元\ Times $减少执行时间的同时实现16%的骰子分数。需要9000个较小的基于血小板的标记体素。由于在线学习方面,我们的方法将快速适应用户输入,从而产生高质量的细分标签。源代码将在接受时提供。
translated by 谷歌翻译
场景流程描绘了3D场景的动态,这对于传统上,从诸如自主驾驶,机器人导航,AR / VR等的各种应用来说至关重要。从密集/常规RGB视频帧估计场景流。随着深度感测技术的发展,通过点云可获得精确的3D测量,这在3D场景流中引发了新的研究。然而,由于典型点云采样模式中的稀缺性和不规则性,从点云中提取场景流量仍然具有挑战性。与不规则采样相关的一个主要问题被识别为点设置抽象/特征提取期间的随机性 - 许多流程估计场景中的基本进程。因此,提出了一种注意力(SA ^ 2)层的新型空间抽象,以减轻不稳定的抽象问题。此外,提出了一种注意力(TA ^ 2)层的时间抽象来纠正时间域中的注意力,导致运动中的运动缩放在更大范围内。广泛的分析和实验验证了我们方法的动机和显着性能收益,与空间 - 时间注意(Festa)称为流量估计,与场景流估计的几个最先进的基准相比。
translated by 谷歌翻译
Diabetic Retinopathy (DR) is considered one of the primary concerns due to its effect on vision loss among most people with diabetes globally. The severity of DR is mostly comprehended manually by ophthalmologists from fundus photography-based retina images. This paper deals with an automated understanding of the severity stages of DR. In the literature, researchers have focused on this automation using traditional machine learning-based algorithms and convolutional architectures. However, the past works hardly focused on essential parts of the retinal image to improve the model performance. In this paper, we adopt transformer-based learning models to capture the crucial features of retinal images to understand DR severity better. We work with ensembling image transformers, where we adopt four models, namely ViT (Vision Transformer), BEiT (Bidirectional Encoder representation for image Transformer), CaiT (Class-Attention in Image Transformers), and DeiT (Data efficient image Transformers), to infer the degree of DR severity from fundus photographs. For experiments, we used the publicly available APTOS-2019 blindness detection dataset, where the performances of the transformer-based models were quite encouraging.
translated by 谷歌翻译
This paper presents our solutions for the MediaEval 2022 task on DisasterMM. The task is composed of two subtasks, namely (i) Relevance Classification of Twitter Posts (RCTP), and (ii) Location Extraction from Twitter Texts (LETT). The RCTP subtask aims at differentiating flood-related and non-relevant social posts while LETT is a Named Entity Recognition (NER) task and aims at the extraction of location information from the text. For RCTP, we proposed four different solutions based on BERT, RoBERTa, Distil BERT, and ALBERT obtaining an F1-score of 0.7934, 0.7970, 0.7613, and 0.7924, respectively. For LETT, we used three models namely BERT, RoBERTa, and Distil BERTA obtaining an F1-score of 0.6256, 0.6744, and 0.6723, respectively.
translated by 谷歌翻译
Objective: Despite numerous studies proposed for audio restoration in the literature, most of them focus on an isolated restoration problem such as denoising or dereverberation, ignoring other artifacts. Moreover, assuming a noisy or reverberant environment with limited number of fixed signal-to-distortion ratio (SDR) levels is a common practice. However, real-world audio is often corrupted by a blend of artifacts such as reverberation, sensor noise, and background audio mixture with varying types, severities, and duration. In this study, we propose a novel approach for blind restoration of real-world audio signals by Operational Generative Adversarial Networks (Op-GANs) with temporal and spectral objective metrics to enhance the quality of restored audio signal regardless of the type and severity of each artifact corrupting it. Methods: 1D Operational-GANs are used with generative neuron model optimized for blind restoration of any corrupted audio signal. Results: The proposed approach has been evaluated extensively over the benchmark TIMIT-RAR (speech) and GTZAN-RAR (non-speech) datasets corrupted with a random blend of artifacts each with a random severity to mimic real-world audio signals. Average SDR improvements of over 7.2 dB and 4.9 dB are achieved, respectively, which are substantial when compared with the baseline methods. Significance: This is a pioneer study in blind audio restoration with the unique capability of direct (time-domain) restoration of real-world audio whilst achieving an unprecedented level of performance for a wide SDR range and artifact types. Conclusion: 1D Op-GANs can achieve robust and computationally effective real-world audio restoration with significantly improved performance. The source codes and the generated real-world audio datasets are shared publicly with the research community in a dedicated GitHub repository1.
translated by 谷歌翻译